<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
<%@page import="zozopo.test.*" %>
<%@page import="zozopo.search.*" %>
<%@page import="java.sql.*" %>
<%@page import="java.util.*" %>
<%@page import="zozopo.operations.comm.*" %>
<%@page import="zozopo.datebase.*" %>
<%@page import="zozopo.operations.manual.*" %>
<%@page import="java.io.*" %>
<%@page import="org.apache.struts2.ServletActionContext" %>

<%
String path = request.getContextPath();
String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/";
%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <base href="<%=basePath%>">
    
    <title>My JSP 'searcherTest.jsp' starting page</title>
    
	<meta http-equiv="pragma" content="no-cache">
	<meta http-equiv="cache-control" content="no-cache">
	<meta http-equiv="expires" content="0">    
	<meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
	<meta http-equiv="description" content="This is my page">
	<!--
	<link rel="stylesheet" type="text/css" href="styles.css">
	-->

  </head>
  
  <body>
    <%
    	//File file = new File(".");
    	System.out.println(application.getRealPath("index")); 
    	
	   
		Indexer indexer = new Indexer();
		indexer.index(new File(application.getRealPath("index")));
		indexer.releaseConnection();
		Searcher searcher = new Searcher();
    	
		searcher.search(new File(application.getRealPath("index")),"razer");
		searcher.releaseConnection();
    %>
    
    <!--  首页| 空间| 新闻| 论坛| 博客| 下载| 读书| 网摘| 书店| 程序员| 项目交易| 乐知教育| 网址 欢迎您：游客|退出|登录注册|帮助    
 CSDN-CSDN社区-专题开发/技术/项目-搜索引擎技术 
管理菜单 生成帖子 置顶 推荐 取消推荐 锁定 解锁 移动 编辑 删除 帖子加分 帖子高亮 取消高亮 结  帖 发  帖 回  复 收藏 不显示删除回复显示所有回复显示星级回复显示得分回复 Lucene3.0 创建索引及多目录搜索[问题点数:20分，结帖人:leadergg] 
leadergg
 
(迷蝶) 

等　级： 
结帖率：100.00% 

 楼主发表于：2010-03-30 14:40:31最近项目中用到了Lucene3.0,如下：
创建索引：

Java code
    public void index() throws CorruptIndexException,
            LockObtainFailedException, IOException {
        // 索引目录
        File indexDir = new File("D:/workspace/code/java/TestLucene3/index/txt/test/");
        // 注意：这里建立索引用的分词方法，在搜索时分词也应该采用同样的分词方法。不然搜索数据可能会不正确
        // 使用Lucene自带分词器
        Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
        // 第一个参数是存放索引文件位置， 第二个参数是使用的分词方法， 第三个：true，建立全新的索引，false,建立增量索引。
        // IndexWriter indexWriter = new IndexWriter(indexDir, luceneAnalyzer, true);

        // 第一个参数是存放索引目录有FSDirectory（存储到磁盘上）和RAMDirectory（存储到内存中）， 第二个参数是使用的分词器， 第三个：true，建立全新的索引，false,建立增量索引，第四个是建立的索引的最大长度。
        IndexWriter indexWriter = new IndexWriter(FSDirectory.open(indexDir),
                luceneAnalyzer, true, IndexWriter.MaxFieldLength.LIMITED);
        // 索引合并因子
        // SetMergeFactor（合并因子）   
        // SetMergeFactor是控制segment合并频率的，其决定了一个索引块中包括多少个文档，当硬盘上的索引块达到多少时，   
        // 将它们合并成一个较大的索引块。当MergeFactor值较大时，生成索引的速度较快。MergeFactor的默认值是10，建议在建立索引前将其设置的大一些。
        indexWriter.setMergeFactor(100);
        // SetMaxBufferedDocs（最大缓存文档数）   
        // SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目，   
        // 设置较大的数目可以加快建索引速度，默认为10。   
        indexWriter.setMaxBufferedDocs(100);

        // SetMaxMergeDocs（最大合并文档数）   
        // SetMaxMergeDocs是控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。   
        // 在创建大量数据的索引时，我们会发现索引过程的瓶颈在于大量的磁盘操作，如果内存足够大的话，   
        // 我们应当尽量使用内存，而非硬盘。可以通过SetMaxBufferedDocs来调整，增大Lucene使用内存的次数。   
        indexWriter.setMaxMergeDocs(1000);

        // SetUseCompoundFile这个方法可以使Lucene在创建索引库时，会合并多个 Segments 文件到一个.cfs中。   
        // 此方式有助于减少索引文件数量，对于将来搜索的效率有较大影响。   
        // 压缩存储（True则为复合索引格式）   
        indexWriter.setUseCompoundFile(true);
        
        long startTime = new Date().getTime();
        
        String temp = "";
        // 增加索引字段
        //         
        // 在Field中有三个内部类：Field.Index,Field.Store,Field.termVector，而构造函数也用到了它们。   
        // 参数说明：   
        // Field.Store：
        // Field.Store.NO：表示该Ｆield不需要存储。   
        // Field.Store.Yes：表示该Ｆield需要存储。   
        // Field.Store.COMPRESS：表示使用压缩方式来存储。   
        // Field.Index：
        // Field.Index.NO：表示该Ｆield不需要索引。   
        // Field.Index.TOKENIZED：表示该Ｆield先被分词再索引。   
        // Field.Index.UN_TOKENIZED：表示不对该Ｆield进行分词，但要对其索引。   
        // Field.Index.NO_NORMS：表示该Ｆield进行索引，但是要对它用Analyzer，同时禁止它参加评分，主要是为了减少内在的消耗。
        // TermVector这个参数也不常用，它有五个选项。
        //                Field.TermVector.NO表示不索引Token的位置属性；
        //                Field.TermVector.WITH_OFFSETS表示额外索引Token的结束点；
        //                Field.TermVector.WITH_POSITIONS表示额外索引Token的当前位置；
        //                Field.TermVector.WITH_POSITIONS_OFFSETS表示额外索引Token的当前和结束位置；
        //                Field.TermVector.YES则表示存储向量。

        // 增加文档 Field相当于增加数据库字段一样检索,获取都需要的内容,直接放index中,不过这样会增大index,保存文件的txt内容
        /**
         * Field.Store 表示“是否存储”，即该Field内的信息是否要被原封不动的保存在索引中。
         * Field.Index 表示“是否索引”，即在这个Field中的数据是否在将来检索时需要被用户检索到，一个“不索引”的Field通常仅是提供辅助信息储存的功能。
         * Field.TermVector 表示“是否切词”，即在这个Field中的数据是否需要被切词。
         */
        Field fieldPath = new Field("path", "", Field.Store.YES, Field.Index.NO);
        Field fieldBody = new Field("content", temp, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
        Field fieldId = new Field("id", "", Field.Store.YES, Field.Index.NOT_ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
        
        Document document = new Document();
        // 做测试，循环100000遍建索引。也可以读取文件内容建索引
        for (int i=0; i<100000; i++) {
            document  = new Document();
            temp = "王熙凤历幻返金陵　甄应嘉蒙恩还玉阙";
            
            fieldPath.setValue("D:\\workspace\\code\\java\\TestLucene3\\txt\\" + i + ".txt");
            fieldBody.setValue(temp);
            fieldId.setValue(String.valueOf(i));
            
            document.add(fieldPath);
            document.add(fieldBody);
            document.add(fieldId);
            indexWriter.addDocument(document);
            i++;
        }
        //optimize()方法是对索引进行优化
        indexWriter.optimize();
        indexWriter.close();
        
        // 若需要从索引中删除某一个或者某一类文档，IndexReader提供了两种方法：
        // reader.DeleteDocument(int docNum)
        // reader.DeleteDocuments(Term term)
        // 前者是根据文档的编号来删除该文档，docNum是该文档进入索引时Lucene的编号，是按照顺序编的；后者是删除满足某一个条件的多个文档。
        // 在执行了DeleteDocument或者DeleteDocuments方法后，系统会生成一个*.del的文件，该文件中记录了删除的文档，但并未从物理上删除这些文档。此时，这些文档是受保护的，当使用Document   
        // doc = reader.Document(i)来访问这些受保护的文档时，Lucene会报“Attempt to access a   
        // deleted document”异常。如果一次需要删除多个文档时，可以用两种方法来解决：   
        // 1. 删除一个文档后，用IndexWriter的Optimize方法来优化索引，这样我们就可以继续删除另一个文档。   
        // 2. 先扫描整个索引文件，记录下需要删除的文档在索引中的编号。然后，一次性调用DeleteDocument删除这些文档，再调用IndexWriter的Optimize方法来优化索引。
        
        long endTime = new Date().getTime();
        System.out.println("\n这花费了" + (endTime - startTime) + " 毫秒增加到索引!");
    }




查询：

Java code
/**
     * 查询
     * 
     * @param String word 关键词
     * @param String filedName 域字段
     * @param String indexDir 索引位置
     * @throws CorruptIndexException
     * @throws IOException
     * @throws ParseException
     * @auther <a href="mailto:gaoxuguo@feinno.com">Gao XuGuo</a> Nov 30, 2009
     *         2:56:42 PM
     */
    public List<Map<String, String>> search(String indexDir)
            throws CorruptIndexException, IOException, ParseException {
        File file = new File(indexDir);
        IndexSearcher is = new IndexSearcher(FSDirectory.open(file), true);
        String field = "content";

        BooleanQuery bq = new BooleanQuery();
        
        QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field,
                new StandardAnalyzer(Version.LUCENE_CURRENT));
        Query query = parser.parse("content:王熙凤");
        
        Query q = new TermQuery(new Term("id","100"));
        bq.add(q,Occur.SHOULD);
        bq.add(query,Occur.SHOULD);
        // 100表示取前100条数据
        TopScoreDocCollector collector = TopScoreDocCollector.create(100, true);

        long start = new Date().getTime();// start time
        
        /**
         * Lucene内置了三个Filter子类：
         * 1)DateFilter使搜索只限于指定的日期域的值在某一时间范围内的文档空间里
         * 2)QueryFilter把查询结果做为另一个新查询可搜索的文档空间
         * 3)CachingWrappperFilter是其他过滤器的装饰器，将结果缓存起来以便再次使用，从而提高性能。
         * 
         */
        String[] dirs = {indexDir};
        MultiSearcher ms = this.getMultiSearcher(dirs);
        ms.search(bq, collector);
        
//        is.search(bq, collector);
        ScoreDoc[] docs = collector.topDocs().scoreDocs;

        Document doc;
        for (ScoreDoc sd : docs) {
            doc = is.doc(sd.doc);
            // 取得doc里面的Field并从doc里面读取值
            for (Fieldable fa : doc.getFields()) {
                System.out.print(fa.name() + "=" + doc.get(fa.name()) + " ");
            }
            System.out.println();
        }
        long end = new Date().getTime();
        if(is != null) is.close();

        System.out.println("找到 " + collector.getTotalHits()
                + " 条数据，花费时间 " + (end - start)
                + " 秒");
        return null;
    }

 
 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 回复次数：13  
 
leadergg
 
(迷蝶) 

等　级： 

 #1楼 得分：0回复于：2010-03-30 14:41:50少发了一个方法：

Java code

    /**
     * 得到MultiSearcher多目录查询实例
     *
     * @param String[] dirs 要查询的索引目录。
     * 
     * @return MultiSearcher
     * @throws IOException
     * @auther <a href="mailto:gaoxuguo@feinno.com">Gao XuGuo</a>
     * Jan 22, 2010 3:44:16 PM
     */
    private MultiSearcher getMultiSearcher(String[] dirs) throws IOException {
        
        // 多目录
        IndexSearcher [] searchers = new IndexSearcher[dirs.length];
        int i = 0;
        for (String dir : dirs) {
            searchers[i] = new IndexSearcher(FSDirectory.open(new File(dir)), true);
            i++;
        }
        // 多目录查询
        return new MultiSearcher(searchers);
    }

 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 精华推荐：突然意识到恐怖的事情，算法的大分支，几乎都是无底洞，进来讨论一下，我们的度在哪里? 
 
vip__888
 
(Pandear) 

等　级： 

 #2楼 得分：0回复于：2010-03-30 21:40:38lz好人 我现在做的项目也遇到lucene 但是搞不定啊 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 精华推荐：继“老子是伟大的多核计算科学家”之后的又一力作“多核编程的四层境界”值得一看！ 
 
leadergg
 
(迷蝶) 

等　级： 

 #3楼 得分：0回复于：2010-03-31 09:09:02遇到什么问题呢？可以互相交流下。我也才接触Lucene不久的 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 精华推荐：现在报名参与9月13日谷歌公司活动，听取最新技术、丰厚奖品等你拿  
 
NewBoss
 


等　级： 

 #4楼 得分：0回复于：2010-03-31 09:12:09技术创造生产力~ 支持一下 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 精华推荐：证明素数有无穷个 
 
laizhenyuan
 


等　级： 

 #5楼 得分：10回复于：2010-03-31 10:11:02使用多目录索引搜索，关键要设计一个好的散列算法，使不同的document大致平均地散列到各个索引目录。
indexWriter.optimize();调用这个方法，会将已经索引的全部document合并重新写入一遍。如果只是进行一次批量索引，问题不大。但是如果是频繁地进行增量索引，就需要注意调用方法的时机了。 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP 精华推荐：[百度分享]dictmatch及多模算法串讲 -- dictmatch基本数据结构及算法 
 
Java2King
 
(天亮了) 

等　级： 

 #6楼 得分：5回复于：2010-03-31 19:13:54注释写的真详细~~楼主是个细心的人 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
liupeng6899319
 
(liupeng6899319) 

等　级： 

 #7楼 得分：5回复于：2010-04-01 09:29:42lucene 怎么实现分布式啊，如果不能很好的应用分布式的话，它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
leadergg
 
(迷蝶) 

等　级： 

 #8楼 得分：0回复于：2010-04-01 16:38:21引用 7 楼 liupeng6899319 的回复:
lucene 怎么实现分布式啊，如果不能很好的应用分布式的话，它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊



我们暂时没有用分布式，但是考虑到了，就是吧索引这层用hessian发布，远程调用就是。这样可以实现分布式。目前已经实现。 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
leadergg
 
(迷蝶) 

等　级： 

 #9楼 得分：0回复于：2010-04-01 16:41:27引用 5 楼 laizhenyuan 的回复:
使用多目录索引搜索，关键要设计一个好的散列算法，使不同的document大致平均地散列到各个索引目录。
indexWriter.optimize();调用这个方法，会将已经索引的全部document合并重新写入一遍。如果只是进行一次批量索引，问题不大。但是如果是频繁地进行增量索引，就需要注意调用方法的时机了。



多目录索引，是针对大数量级的数据。如上百万级的数据。这样查询及建索引在一个索引文件效率都不高。
我们目前的实现是根据类别分目录建立索引。这样就实现了“分流”

增量索引的话，建议不要太频繁的，但是还是要看数据的更新频率。如果要做到实时更新索引，就要和应用程序结合在一起，在增加或修改数据的时候在索引里面增加或修改对对应的索引。 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
lijiwei0306
 
( shijian) 

等　级： 

 #10楼 得分：0回复于：2010-04-01 16:47:51引用 8 楼 leadergg 的回复:
引用 7 楼 liupeng6899319 的回复:
lucene 怎么实现分布式啊，如果不能很好的应用分布式的话，它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊


我们暂时没有用分布式，但是考虑到了，就是吧索引这层用hessian发布，远程调用就是。这样可以实现分布式。目前已经实现。




能讲详细点吗?我现在正在用索引这块东东 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
leadergg
 
(迷蝶) 

等　级： 

 #11楼 得分：0回复于：2010-04-01 17:05:40这个我正已经老另外发了一篇帖子：
http://topic.csdn.net/u/20100401/17/2456d450-d5bb-407d-bf92-203075ada8bc.html?seed=1736293753&r=64364852#r_64364852
里面有我们设计的总体图 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
leadergg
 
(迷蝶) 

等　级： 

 #12楼 得分：0回复于：2010-04-01 17:06:07帖子地址 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
 
wxd137720
 
(wxd137720) 

等　级： 

 #13楼 得分：0回复于：2010-06-20 14:57:29不错，学习。。。。 
 
 
对我有用[0] 丢个板砖[0] 引用 举报 管理 TOP  
管理菜单 生成帖子 置顶 推荐 取消推荐 锁定 解锁 移动 编辑 删除 帖子加分 帖子高亮 取消高亮 结  帖 发  帖 回  复   
公司简介|招贤纳士|广告服务|银行汇款帐号|联系方式|版权声明|法律顾问|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
 Email:webmaster@csdn.net
Copyright © 1999-2010, CSDN.NET, All Rights Reserved
 
     -->
  </body>
</html>
